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一 种 基于 多 阶 认 知 诊断 模型 测评 
科学 素养 的 方法 ' 
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摘 要 


科学 素养 是 指 作为 一 名 有 反思 意识 的 公民 所 具有 的 解决 科学 问题 和 运用 科学 理念 的 能 力 。 为 实现 在 认 知 


诊断 中 对 科学 素养 的 测评 ,本 文 基于 PISA 2015 科学 素养 测评 框架 首次 提出 科学 素养 包含 的 三 阶 潜在 结构 , 使 用 
新 提出 的 多 阶 认 知 诊断 模型 对 PISA 2015 科学 测评 数据 进行 分 析 , 并 通过 模拟 研究 探究 新 模型 的 心理 测量 学 性 能 。 
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结果 表明 :(1) 新 模型 能 够 较 好 地 分 析 包 含 三 阶 潜在 结构 的 科学 素养 ; (2) 科 学 知识 对 科学 素养 的 影响 最 大 , 科学 背景 
RZ, 科学 能 力 的 影响 最 小 ; (3) 全 贝 叶 斯 MCMC 算法 能 够 为 新 模型 提供 较 精 准 的 参数 估计 。 
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1 引言 


“科学 技术 推动 了 生产 力 的 发 展 、 经 济 的 繁荣 
和 社会 的 进步 , 促进 了 人 们 的 生产 方式 、 生 活 方式 
和 思维 方式 的 变革 。 科学 技术 的 快速 发 展 对 每 一 位 
公民 的 科学 素养 提出 了 新 的 要 求 ”( 中 华人 民 共 和 
国教 育 部 , 2017)。 实 际 上 ， 关 于 如 何 提高 个 体 或 公 
民 的 科学 素养 是 一 个 交叉 学 科 问 题 ， 它 一 直 以 来 都 
是 科学 教育 、 教 育 心理 学 和 学 习 科 学 等 学 科 领 域 的 
学 者 们 共同 关注 的 重 难点 。 科 学 素养 是 一 个 不 断 发 
展 的 概念 ， 它 的 内 涵 和 界定 方式 会 随时 代 发 展 而 发 
生 改 变 (see Miller, 1983; OECD, 2006), 2017 年 ， 
《义务 教育 小 学 科学 课程 标准 》 将 “科学 素养 ”定义 
为 “了 解 必要 的 科学 技术 知识 及 其 对 社会 与 个 人 的 
影响 ,知道 基本 的 科学 方法 , 认 知 科学 本 质 ， 树 立 
科学 思想 ， 崇 尚 科学 精神 ,并 具备 一 定 的 运用 它们 
处 理 实际 问题 .参与 公共 事务 的 能 力 ” 从 本 质 上 
该 定义 就 是 说 “科学 素养 是 指 作为 一 名 有 反思 意识 
的 公民 所 具有 的 解决 科学 问题 和 运用 科学 理念 的 
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能 力 ”(OECD, 2016)。 

为 实现 对 科学 素养 的 客观 测评 ， 国 际 学 生 评 估 
项 目 (Programme for International Student Assessment， 
PISA) 在 2015 年 把 科学 素养 的 内 涵 划 分 为 科学 能 
(Competencies), 、 科 学 知识 (Knowledge) 、 科 学 背景 
(Contexts) 和 科学 态度 (Attitudes) 四 个 相互 关联 的 维 
EE, 并 给 出 了 相应 的 测评 或 评估 框架 ， 见 图 1。 这 就 
要 求学 生 在 一 定 的 科学 背景 中 , 根据 自己 的 科学 态 
BE, 运用 科学 知识 来 解决 科学 问题 ,从 而 展现 出 自 
己 的 科学 能 力 ( 刘 克 文 , 李 川 , 2015)。PISA 2015 测 
评 框架 是 在 PISA 2006 科学 测评 框架 (OECD, 2006) 
的 基础 上 修订 而 来 的 ， 其 发 展 主要 体现 在 对 科学 知 
识 维度 的 更 详细 划分 。 科 学 测评 框架 的 逐步 完善 ， 
是 在 实践 基础 上 不 断 重 新 认识 科学 素养 的 结果 。 可 
以 说 , PISA 2015 科学 素养 测评 框架 是 目前 最 新 最 
有 具 可 操作 性 的 科学 素养 测评 框架 。 

除 具 有 可 操作 性 的 测评 框架 外 ,一 个 适宜 测评 
方法 也 同样 重要 。 适宜 的 测评 方法 应 能 够 匹配 测评 
WEAR, 并 能 够 实现 对 科学 素养 客观 且 准 确 的 评价 。 
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图 1 PISA 2015 科学 素养 测评 框架 (来 源 : OECD (2016) 第 23 页 图 2.2). 


然而 ， 目 前 国内 外 已 有 研究 绝 大 多 数 只 是 对 公民 或 
中 小 学 学 生 科 学 素养 的 问卷 调查 (e.g.，Roos，2014; 
高 宏 斌 , 2011; 秦 浩 正 ， 钱 源 伟 , 2008)， 这 仅 是 对 科 
学 素养 整体 现状 的 大 臻 了解。 而 且 这 些 调查 多 采用 
自我 报告 法 ,主观 性 较 强 ,存在 一 定 的 社会 赞许 
性 。 仅 有 少许 研究 关注 到 了 对 科学 素养 的 测评 (e.g.,， 
胡 咏 梅 ， 杨 素 红 ， 卢 珂 ,2012)。 除 研究 方法 有 待 改 
进 外 , 目前 绝 大 多 数 研 究 所 使 用 的 测评 /数据 分 析 
方法 和 理论 也 较为 落后 , 仍 以 经 典 测量 理论 为 主 
(e.g., Roos, 2014; 任 夭 ， 张 超 , (Hk, 2013), MA 
个 别 研究 使 用 到 了 题目 作答 理论 (item response 
theory, IRT) 模 型 (e.g.， 胡 咏 梅 等 , 2012)。 另 外 ， 需 要 
强调 的 是 尽管 PISA 为 科学 素养 建构 了 多 维 结构 ， 
但 数据 分 析 时 仍 使 用 了 单 维 RT SS (OECD, 
2017)。 即 PISA 现 有 的 测评 方法 并 不 匹配 测评 框架 ， 
其 主要 原因 之 一 是 因为 PISA 更 关注 的 是 国家 /经 济 
体 的 整体 现状 而 非 个 体 参 与 者 ， 所 以 对 个 体 使 用 一 
个 党 统 的 单 维 潜在 特质 可 以 简化 整体 研究 的 复杂 
性 。 而 当 把 个 体 视 为 测评 主体 时 ， 就 需要 更 复杂 的 
测评 方法 (e.g., Zhan, Jiao, & Liao, 2018)。 综 上 所 述 ， 
为 在 PISA 2015 科学 素养 测评 框架 下 实现 对 科学 素 
养 客 观 且 准确 的 测评 ， 需 要 尝试 从 新 的 视角 切入 ， 
使 用 或 开发 更 适宜 的 测评 方法 。 

近 些 年 ， 随 着 认 知 心理 学 的 发 展 ， 研 究 者 们 逐 
渐 发 现 被 试 在 完成 某 项 任务 时 党 需要 多 种 能 力 的 
相互 配合 ， 因 此 ,早期 心理 测量 模型 中 的 单 维 性 假 
设 并 不 符合 实际 (Reckase，2009; Wang & Chen, 
2004; 康 春 伦 ， 辛 涛 ，2010; 詹 沛 达 , 王 文 中 ,王立 
君 ， 2013)。 男 外 ,除了 简单 的 总 分 外 ， 人 们 也 希望 
能 从 被 试 的 实际 作答 情况 中 获得 更 丰富 的 信息 ， 以 
便 对 被 试 做 出 更 客观 的 评价 和 补救 。 基 于 此 ， 认 知 
诊断 测评 (cognitive diagnostic assessment, CDA) 在 
近 一 二 十 年 内 受到 了 国内 外 学 者 的 更 多 关注 (Rupp， 


Templin, & Henson, 2010; RA, AHA, THR, 
2012), CDA 是 指 在 心理 与 教育 测量 学 中 对 个 体 认 
知 过 程 、 加 工 技 能 或 知识 结构 (统称 为 属性 ) 的 诊断 
性 测评 。 作 为 一 种 将 形成 性 评价 和 终结 性 评价 相 结 
合 的 综合 评价 形式 ( 詹 沛 达 , 陈 平 , 边 玉 芳 ，2016)， 
CDA 的 初衷 是 通过 测评 个 体 对 属性 的 掌握 状态 为 
教师 或 干预 者 提供 诊断 反馈 报告 ， 进 而 帮助 他 们 实 
施 补 救 教学 或 有 针对 性 的 干预 (Zhan et al., 2018)。 
CDA 改变 了 以 往 评价 方法 重 结 果 、 轻 过 程 的 次 端 ， 
符合 当前 我 国 一 些 教育 政策 导向 。 比 如 :《 基础 教 
育 课 程 改革 纲要 (试行 )》 中 “改变 课程 评价 过 分 强调 
甄别 与 选拔 的 功能 ,发挥 评 价 促进 学 生发 展 、 教 师 
提高 和 改进 教学 实践 的 功能 ”的 具体 目标 。 因 此 ， 如 
何在 CDA 中 实现 对 科学 素养 的 测评 是 一 个 兼 具 理 
论 意义 和 实践 意义 的 议题 。 

下 文中 , 我 们 首先 将 对 PISA 2015 科学 素养 测 
评 框 架 做 进一步 解读 ,明确 该 框架 所 包含 的 三 阶 洪 
在 结构 ; 其 次 , 对 现 有 的 高 阶 认 知 诊断 模型 (higher- 
order cognitive diagnosis model; HO-CDM) 进 行 介 
绍 并 阐明 其 局 限 性 ; 然后 ,提出 一 种 新 的 多 阶 认 知 
诊断 模型 (multi-order CDM; MO-CDM)， 以 期 在 
CDA 中 满足 对 三 阶 或 更 高 阶 潜在 特质 的 分 析 和 需求 ， 
并 匹配 PISA 2015 科学 素养 测评 框架 ,实现 对 科学 
素养 的 准确 测评 。 再 然后 ,我 们 以 PISA 2015 科学 
测评 数据 分 析 为 例 来 说 明 新 模型 的 现实 可 应 用 性 ， 
并 对 数据 分 析 结 果 进 行 解读 。 最 后 , 通过 一 个 模拟 
研究 来 探究 新 模型 的 参数 估计 返 真性 。 
2 科学 素养 包含 的 三 阶 潜在 结构 

PISA 2015 认为 科学 素养 的 核心 是 科学 能 力 ， 
而 科学 能 力 的 展现 需要 在 特定 的 科学 背景 下 辅 以 
足够 的 科学 知识 ， 并 受到 科学 态度 的 影响 。 这 4 个 
维度 相辅相成 ,共同 组 成 了 科学 素养 ， 即 科学 素养 
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是 科学 能 力 、 科 学 知识 、 科 学 背景 和 科学 态度 的 高 
阶 /高 位 概念 , 个 体 科 学 素养 的 高 低 决 定 了 他 在 这 4 
个 维度 方面 的 表现 情况 。 进 一 步 , 根据 《PISA 2015 
测评 与 分 析 框 架 》(OECD, 2016): 

(1) 科学 能 力 又 被 细 分 为 3 种 子 能 力 , 分 别 是 
科学 地 解释 现象 、 评 估 和 设计 科学 探究 和 科学 地 解 


要 我 们 建构 新 的 模型 ， 以 期 满足 测评 需求 。 
3 多 阶 认 知 诊断 模型 
3.1 ”高 阶 认 知 诊断 模型 及 其 局 限 性 


在 心理 学 和 教育 学 中 ,潜在 特质 除了 可 能 存在 
SAI, 还 可 能 进一步 存在 层 阶 关 系 ,这 被 称 为 


释 数据 和 证 据 。 即 科学 能 力 是 3 这 子 能 力 的 高 阶 概念 ， 
个 体 科学 能 力 的 高 低 决定 了 其 3 项 子 能 力 的 高 低 ; 
(2) 科学 知识 又 被 细 分 为 3 种 子 知识 ， 分 别 是 
内 容 性 知识 、 程 序 性 知识 和 认 知 性 知识 。 即 科学 知 
识 是 这 3 种 子 知识 的 高 阶 概念 ,个体 对 科学 知识 的 
掌握 程度 决定 了 其 对 3 种 子 知 识 的 掌握 程度 ; 

(3) 科学 背景 又 被 细 分 为 3 种 子 背 景 , 分 别 是 
个 人 的 、 当 地 /国家 的 和 全 球 的 。 即 科学 背景 是 这 3 
个 子 背景 的 高 阶 概念 ,个体 对 科学 背景 的 熟悉 程度 
影响 着 其 对 3 种 子 背 景 的 熟悉 程度 ; 

(4) 科学 态度 又 被 细 分 为 3 种 子 态 度 ， 分 别 是 
对 科学 的 兴趣 、 评 佑 科学 探究 方法 的 价值 和 环境 意 
识 。 即 科学 态度 是 这 3 种 子 态度 的 高 阶 概念 , 个 体 
的 科学 态度 影响 其 3 种 子 态度 。 

综 上 所 述 ， 基 于 PISA 2015 科学 素养 测评 框架 ， 
科学 素养 包含 三 阶 潜在 结构 ， 如 图 2 所 示 。 其 中 , 第 
三 阶 潜在 特质 为 科学 素养 是 PISA 2015 科学 素养 
测评 框架 中 的 最 高 阶 概 念 ; 第 二 阶 潜在 特质 包括 : 
科学 能 力 、 科 学 知识 、 科 学 背景 和 科学 态度 ， 是 该 
测评 框架 中 的 4 个 主要 概念 ; 而 第 一 阶 潜在 特质 为 
科学 地 解释 现象 .评估 和 设计 科学 探究 等 12 项 ， 是 
该 测评 框架 中 的 低 阶 概念 。 

为 在 CDA 中 实现 对 科学 素养 的 测评 ， 需 要 一 
种 能 够 分 析 科 学 素养 三 阶 潜在 结构 的 CDM。 鉴 于 
目前 尚未 有 CDM 能 够 处 理 三 阶 潜 在 结构 ， 这 就 需 
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MMA TER, Hoon, 图 2 所 示 的 科学 素养 
所 包含 的 三 阶 潜在 结构 ; 再 比如 , 韦 氏 成 人 智力 量 
表 中 也 测量 了 三 阶 潜在 特质 : 第 一 阶 中 包含 了 13 
个 子 测 验 并 分 别 测量 了 一 种 潜在 特质 ,在 第 二 阶 中 
这 13 种 潜质 就 被 归 为 4 种 外 延 更 广 的 潜在 特质 ( 言 
语 能 力 、 知 觉 推 理 、 工 作 记忆 和 信息 加 工 速度 )， 而 
在 第 三 阶 中 这 4 种 潜在 特质 又 包含 在 一 般 智力 之 中 
(Ryan & Schnakenberg-Ott, 2003)。 

高 阶 潜 在 特质 的 概念 是 建构 在 多 维 潜在 特质 
概念 之 上 的 , 用 于 描述 多 个 潜在 特质 之 间 可 能 存在 
的 结构 关系 。 基 于 此 , 研究 者 们 开发 了 两 类 不 同 的 
高 阶 心理 测量 模型 ( 陈 飞 脑 ， 詹 沛 达 , 王立 君 ， 陈 春 
W&, RE, 2015): 基 于 多 维 IRT 模型 建构 的 高 阶 IRT 
模型 (de la Torre & Song, 2009; Huang, Wang, Chen, 
& Su, 2013; Rijmen, Jeon, von Davier, & Rabe- 
Hesketh, 2014) 和 基于 CDM 建构 的 高 阶 认 知 诊断 模 
型 (HO-CDM) (de la Torre & Douglas, 2004; Templin, 
Henson, Templin, & Roussos, 2008; Zhan, Wang, & 
Li, in press)， 本 文 聚焦 于 后 者 。 

在 CDA 中 ， 鉴 于 被 试 对 属性 的 掌握 可 能 受到 
一 个 (或 多 个 ) 更 高 阶 的 潜在 特质 的 影响 且 为 减少 参 
数 估计 的 数量 ，de la Torre 和 Douglas(2004) 提 出 了 
高 阶 潜在 结构 模型 
logit(P(ok =1|0,,)) 230, —Aox - (1) 


st}, logit(x) = log 5) ; P(am = 1 19) 为 给 定 第 
—X 
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图 2 PISA 2015 科学 素养 所 包含 的 三 阶 潜在 结构 
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二 阶 潜在 特质 9, 后 被 试 n 掌握 属性 k 的 概率 ; Xox 
为 属性 k 的 难度 参数 ， 和 Xu 为 属性 大 的 区 分 度 参数 。 
式 (1) 所 描述 的 潜在 结构 见 图 3。 式 (1) 是 潜在 结构 模 
型 ， 将 它们 与 测量 模型 相 结 合 即 可 得 到 HO-CDM 。 
比如 , 将 它们 与 DINA 模型 (Junker & Sijtsma, 2001; 
Macready & Dayton，1977) 相 结合 即 可 得 到 高 阶 
DINA (HO-DINA) 模 型 。 限 于 高 阶 潜在 结构 模型 的 
理论 局 限 ，HO-DINA 模型 只 能 处 理 包含 二 阶 潜在 
结构 的 数据 , 无 法 实现 对 科学 素养 所 包含 的 三 阶 潜 
在 结构 的 测评 ， 不 满足 本 研究 的 需求 。 


图 3 CDA 中 二 阶 潜在 特质 与 属性 间 的 关系 示例 图 
ik: 0 为 第 二 阶 潜在 特质 ; a 为 (第 一 阶 ) 属 性 ; K 为 总 属性 数量 ;I 
为 总 题目 数量 


3.2 ”多 阶 认 知 诊断 模型 的 建构 
3.2.1 多 阶 潜在 结构 模型 (MO-LSMD 

针对 目前 缺乏 可 处 理 三 阶 或 更 高 阶 潜在 结构 
的 CDM 这 一 问题 ， 本 研究 借鉴 高 阶 IRT 模型 的 建 
模 思 路 , 把 线性 潜在 结构 模型 引入 到 当前 的 二 阶 潜 
在 结构 模型 ( 式 (1)) 之 上 ， 提 出 多 阶 潜在 结构 模型 
(multi-order latent structural model; MO-LSM)。 i 
先 ， 假 设 潜在 特质 存在 多 阶 结构 ，6W 表示 被 试 n 
TESS h (h=2) 阶 中 的 第 m 个 潜在 特质 ， 则 9 由 与 更 
高 阶 的 潜在 特质 84 之 间 的 线性 潜在 结构 关系 可 
被 描述 为 : 

«evertere ed. 0) 
p=l 

SUP, yP AE n BREA Tat; eM NSS n 阶 中 的 
第 mm 个 潜在 特质 的 残 差 ; ONY 为 被 试 n 在 第 h+1 
阶 中 的 第 p 个 潜在 特质 。 需 要 说 明 的 是 , 除了 线性 
关系 外 ， 式 (2) 也 可 以 修改 为 非 线性 关系 (e.g.， 多 项 
3X). 但 鉴于 心理 学 研究 中 通常 假设 潜 变 量 之 间 为 
线性 关系 (e.g., 结构 方程 模型 )， 且 为 降低 模型 复杂 
性 ， 本 研究 暂 只 关注 线性 关系 (de la Torre & Song， 
2009; Huang et al., 2013; Rijmen et al., 2014)。 将 式 
(2) 引 入 式 (1) 中 即 可 得 到 MO-LSM: 


logit(P(u,, =110®) = 377 3,90 -Aor = 

MELIOR HER) Aor: (3) 

基于 条 件 独 立 性 假设 ,MO-LSM 假设 当 给 定 更 

高 一 阶 的 潜在 特质 时 , 各 低 阶 潜在 特质 之 间 相 互 独 

Woo 需要 说 明 的 是 , 尽管 式 (3) 在 理论 上 能 够 处 理 多 

阶 的 潜在 特质 , 但 考虑 到 现实 测验 情境 中 出 现 四 阶 

潜在 特质 的 可 能 性 已 经 较 小 ， 且 为 匹配 PISA 2015 

科学 素养 所 包含 的 三 阶 潜在 结构 ,本 研究 聚焦 于 仅 

包含 1 个 第 三 阶 潜在 特质 的 三 阶 潜 在 结构 模型 如 
图 4， 该 模型 可 被 描述 为 : 

logit(P(ow —1|05)) = > Mimi nm — Aok = 


m=1 


M 
> Nimk Cae + eQ) — ox: (4) 
m=1 


为 使 模型 可 识别 ， 设 定 OO ~N(O, 1) A&G ~N CO, 
1-y9) ) ， 进 而 有 6 多 ~N(0，D ,此 时 ,任意 两 个 第 
二 阶 潜在 特质 之 间 的 相关 系数 等 于 y2 x yO 。 当 
y=1 时 ， 有 sg =0 ， 则 式 (4) 退 化 为 式 (1)。 


图 4 CDA 中 第 三 阶 潜在 特质 与 属性 间 的 关系 示例 图 . 


TE: 95 为 第 三 阶 潜在 特质 ; 9 为 第 二 阶 潜在 特质 ; a 为 (第 一 阶 ) 
属性 ; K 为 总 属性 数量 ; 了 为 总 题目 数量 。 


(æ) 
5-06 
SSS 


Sy 


3.2.2 MO-DINA 模型 

通常 , CDM 由 两 部 分 组 成 : 测量 模型 和 潜在 结 
构 模 型 (Rupp et al., 2010), 前 者 定义 了 被 试 作答 题 
目的 正确 概率 , 后 者 描述 了 属性 之 间 的 结构 关系 。 
在 3.2.1 中 , 我 们 已 经 定义 了 MO-LSM, 为 提高 参 
数 估计 的 精度 和 效率 , 我 们 选用 引入 题目 内 特征 依 
赖 性 的 贝 叶 斯 DINA 模型 (Zhan, Jiao, Liao, & Bian, 
2018) 作 为 测量 模型 ， 模 型 详 述 见 附录 。 

本 研究 采用 全 贝 叶 斯 马尔 可 夫 链 蒙特 卡 洛 
(MCMC) 算 法 来 实现 对 MO-DINA 模型 的 参数 估计 ， 
并 基于 JAGS 软件 (Version 4.3.0) 实 现 。 各 待 估 计 参 数 
的 先 验 分 布 详 见 附录 ， 相 应 的 JAGS 代码 也 可 向 作 
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者 索取 。 关于 如 何 使 用 JAGS 实现 对 贝 叶 斯 CDM 的 
参数 估计 ， 可 人 参阅 Zhan Jiao Man 和 Wang (in press). 


4 PISA 2015 科学 测评 数据 分 析 
4.1 研究 问题 与 目的 


级 化 : 0 一 0, 1 一 0, 2 一 1。 最 终 ， 清 理 后 的 数据 包含 
N=1076 人 在 T=18 题 上 的 二 级 评分 数据 。 属 性 与 
题目 之 间 的 对 应 关系 (ie., Q 矩阵) 见 表 1。 


表 1 PISA 2015 科学 测验 部 分 题目 的 Q 和 矩阵 


oO 
通过 对 PISA 2015 科学 测评 数据 的 分 析 ， 呈 现 题目 "E NT Jð 
zl 1 2 3 
: EA Vy FH ESR 性 
出 MO-DINA 模型 的 现实 需求 和 可 应 用 性 。 基 于 上 EG Xe Ne X 74 8 738 
文中 对 科学 素养 所 包含 的 三 阶 潜在 结构 划分 ， 在 针 DS269001 1 1 1 
对 科学 素养 的 测评 中 ,我 们 想 测 评 被 试 在 所 有 第 一 DS269003 1 1 1 
阶 、 第 二 阶 和 第 三 阶 潜在 特质 (属性 ) 上 的 表现 情况 。 CS269Q04 1 1 1 
因此 , 本 研究 欲 回答 两 个 问题 : (1) MO-DINA 模型 CS408Q01 1 1 1 
是 否 适用 于 测评 含 三 阶 潜在 结构 的 科学 素养 ? 如 DS408Q03 1 1 1 
果 可 以 , 那么 2) 科学 素养 的 子 维度 中 哪个 对 它 的 a 1 i ! 
影响 最 大 ? BIZE PISA 2015 中 ,科学 素养 的 核心 维  — C5108005 
度 是 哪个 ? CS521Q02 1 1 1 
CS521Q06 1 1 1 
* Hv 
4.2 pros -— DS519Q01 1 1 1 
4.2.1 多 阶 潜在 特质 设 定 CS519Q02 1 i i 
根据 本 文 第 2 节 的 内 容 , PISA 2015 科学 素养 包 DS519Q03 1 1 1 
含 了 三 阶 潜在 结构 ， 各 阶 潜在 特质 的 名 称 及 它们 之 CS527Q01 1 1 1 
间 的 结构 关系 见 图 2。 在 数据 分 析 时 ,我 们 依据 CS527Q03 1 1 1 
MO-DINA 模型 将 模型 参数 与 多 阶 潜在 特质 进行 匹 CS527Q04 1 1 1 
BL, 第 三 阶 潜在 特质 : 92) 一 科学 素养 ; 第 二 阶 潜在 特 CS466Q01 l : ! 
Wü. 02) 一 科学 能 力 , 922) 一 科学 知识 , O° BH 。 C5466007 1 1 
景 ; 第 一 阶 潜在 属性 : Al 一 科学 地 解释 现象 , A2—. —-_S46608 
YE: 空白 为 “0”; 选用 “2015 field trial and main survey cluster” = 


评估 和 设计 科学 探究 , A3 一 科学 地 解释 数据 和 证 据 ， 
A4 一 内 容 性 知识 , A5 一 过 程 性 知识 , A6 一 认 知 性 知 
识 , A7 一 个 人 背景 , A8 一 地 区 /国家 背景 , A9 一 全 球 
背景 。 需 要 说 明 的 是 , 在 第 二 阶 潜在 特质 中 ， 因 为 
科学 态度 是 通过 学 生 问 卷 来 获取 的 ， 并 不 包含 在 认 
知 题目 数据 中 ,所 以 本 研究 暂 不 涉及 。 
4.2.2 ”被 试 与 题目 

根据 《PISA 2015 技术 报告 》(OECD, 2017) 的 
“附录 A: 题 池 的 分 类 (Item Pool Classification)”， 数 
据 清 理 过 程 如 下 : (1) 选 用 “2015 field trial and main 
survey cluster” P S01 所 包含 的 18 道 题目 ， 共 47548 
A; (2) 选 用 中 国 (QCH) 样 本 , 共 1079 A; (3) 将 数据 
中 “not reached” #il“no response” 等 设 定 为 缺失 值 NA; 
(4) 删 除 在 18 题 中 全 部 缺失 作答 的 3 名 被 试 , 剩余 
1076 A; (3) 将 剩余 所 有 缺失 值 视 为 完全 随机 缺失 。 
全 贝 叶 斯 MCMC 算法 可 以 根据 其 他 参数 的 估计 值 
计算 出 缺失 值 的 后 验 分 布 ， 这 是 一 种 “自动 填补 ”的 
过 程 ， 无 需 做 其 他 设 定 。 另 外 , DS519Q01 原 为 三 级 
评分 题目 (i.e., Y; € (0, 1, 2}), 限于 MO-DINA 模 
型 暂 只 能 处 理 二 级 评分 题目 , 我 们 将 该 题目 分 数 二 


S01 的 题目 。 


43 4h 

本 研究 选用 MO-DINA , HO-DINA fil DINA 模 
型 分 别 对 该 数据 进行 分 析 并 比较 。 在 潜在 结构 模型 
方面 : 对 MO-DINA 而 言 ,其 多 阶 潜在 结构 依据 图 
2 中 结构 设 定 ( 不 考虑 科学 态度 ); 对 于 HO-DINA ft 
型 而 言 ， 假 设 第 一 阶 属 性 直接 受 科 学 素养 的 影响 ， 
忽略 第 二 阶 潜在 特质 ， 即 约束 yY2) =1; 对 于 DINA 
模型 而 言 ， 忽略 所 有 多 阶 潜在 结构 ， 直 接 使 用 无 结 
构 潜 在 结构 模型 。 

三 模型 均 使 用 两 条 马尔 可 夫 链 (随机 起 点 )， 每 
条 链 包含 10, 000 次 迭代 ， 其 中 预 热 5, 000 KER, 
稀疏 值 1。 最 终 剩 余 10, 000 次 迭代 用 于 参数 估计 。 
使 用 潜在 量 尺 缩减 因子 (PSRF) (Brooks & Gelman, 
1998) 进 行 参数 估计 收敛 检验 ， 本 人 研究 中 所 有 参数 
的 PSRF 均 小 于 1.2, 表示 参数 估计 已 收敛 。 

本 研究 使 用 AIC、BIC 和 DIC 作为 模型 -数据 
相对 拟 合 指标 ,指标 值 越 小 的 模型 表明 该 模型 与 数 
据 的 拟 合 相 对 更 好 。 另 外 , 本 研究 使 用 后 验 预测 模 
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型 检验 (posterior predictive model checking, PPMC) 
来 评估 模拟 -数据 绝对 拟 合 指标 ， 其 中 后 验 预测 概 


表 4 PISA 2015 科学 测验 部 分 题目 的 题目 均值 向 量 和 


率 (ppp)， 接 近 0.5 则 表明 模型 与 数据 拟 合 ， 小 于 
0.05 或 大 于 0.95 则 表示 该 模型 不 拟 合 该 数据 。 
4.4 结果 

表 2 呈现 了 3 个 模型 的 各 项 模型 -数据 拟 合 指 
标 值 。 首 先 , 根据 ppp 值 , 3 个 模型 均 拟 合 该 数据 。 
其 次 , 4 个 相对 拟 合 指标 都 判断 DINA 模型 的 相对 
拟 合 最 差 ， 说明 针 对 该 数据 应 考虑 高 阶 潜在 结构 。 
然后 , 在 4 个 相对 拟 合 指标 中 , -2LL 和 AIC 均 判 断 
MO-DINA 模型 的 相对 拟 合 更 好 , 而 BIC 和 DIC W 
判断 HO-DINA 模型 的 相对 拟 合 更 好 ,这 是 由 BIC 
All DIC 对 模型 复杂 性 的 惩罚 相对 更 高 导致 的 。 另 外， 
由 于 HO-DINA 模型 是 MO-DINA 模型 的 特例 (i.e.， 
约束 y, = 1), 似 然 函数 比 检验 (A-2LL = 13, df = 3, 
p < 0.05) 认 为 两 模型 差异 显著 ,应 选择 MO-DINA 
模型 。 最 后 ， 再 结合 本 研究 的 研究 目的 和 问题 ， 我 
们 综合 认为 MO-DINA 模型 更 适宜 于 本 研究 。 下 文 
将 基于 MO-DINA 模型 的 分 析 结 果 进 行 解 读 。 


表 2 PISA 2015 科学 测验 部 分 题目 数据 的 模型 -数据 拟 


合 指标 值 . 
模型 -2LL AIC BIC DIC ppp 
MO-DINA 19332 19389 19673 24775 0.738 
HO-DINA 19345 19399 19668 24644 0.716 
DINA 19415 19962 22687 24856 0.692 


表 3 PISA 2015 科学 测验 部 分 题目 的 参数 估计 值 . 

题目 gi s; 95% CI (g) 95% CI(s) IDI; 
DS269Q01 0.325 0.119 (0.263, 0.386) (0.082, 0.158) 0.556 
DS269Q03 0.459 0.070 (0.397, 0.521) (0.042, 0.102) 0.471 
CS269Q04 0.237 0.351 (0.190, 0.289) (0.304, 0.398) 0.412 
CS408Q01 0.434 0.181 (0.373, 0.489) (0.142, 0.222) 0.385 
DS408Q03 0.033 0.810 (0.015, 0.058) (0.776, 0.843) 0.157 
CS408Q04 0.429 0.261 (0.374, 0.487) (0.219, 0.300) 0.310 
CS408Q05 0.295 0.213 (0.220, 0.357) (0.160, 0.266) 0.492 
CS521Q02 0.548 0.133 (0.494, 0.602) (0.097, 0.170) 0.319 
CS521Q06 0.849 0.008 (0.809, 0.883) (0.002, 0.017) 0.143 
DS519Q01 0.106 0.524 (0.047, 0.163) (0.457, 0.582) 0.370 
CS519Q02 0.281 0.304 (0.231, 0.332) (0.256, 0.353) 0.415 
DS519Q03 0.323 0.228 (0.212, 0.404) (0.174, 0.282) 0.449 
CS527Q01 0.033 0.788 (0.012,0.055) (0.742, 0.831) 0.179 
CS527Q03 0.393 0.330 (0.343, 0.442) (0.289, 0.371) 0.277 
CS527Q04 0.281 0.373 (0.203, 0.343) (0.316, 0.423) 0.346 
CS466Q01 0.448 0.182 (0.378, 0.514) (0.140, 0.226) 0.370 
CS466Q07 0.649 0.050 (0.543, 0.726) (0.026, 0.080) 0.301 
CS466Q05 0.342 0.243 (0.284, 0.398) (0.184, 0.300) 0.415 
ik: 95% CI = 95% 贝 叶 斯 可 信 区 间 ; gi = 猜测 参数 , s; = 失误 参 
数 ; IDI, = 题目 区 分 度 . 


方差 协 方 差 矩 阵 估计 值 . 
参数 后 验 均 值 95% CI 相关 系数 
E op 1.773 (0.873, 3.571) 1.000 
PpaOpOs —1.833 (-3.719, —0.856) —0.890 
os” 2.394 (1.145, 4.778) 1.000 
uO Hp —0.783 (-1.408, —0.154) 
m -1.212 (-1.924, —0.493) 


表 3 呈现 了 题目 参数 的 估计 值 。 整 体 看 这 18 
道 题 的 质量 一 般 ， 有 个 别 题目 的 猜测 参数 或 失误 参 
数 达 到 了 0.8 左右 。 这 点 根据 题目 区 分 度 (IDIi= 1 - 
s; — gi) (de la Torre, 2008) 也 能 够 发 现 ， 部 分 题目 的 
区 分 度 已 经 低 于 0.2。 这 其 中 可 能 原因 是 (1) 测 验 Q 
矩阵 不 完备 (K6hn & Chiu, 2017); (2) 题 目 涉 及 了 Q 
矩阵 以 外 的 其 他 属性 。 男 外 , 表 4 呈现 了 logit 转换 
后 的 题目 参数 的 均值 向 量 和 方差 协 方差 矩阵 ， 可 以 
看 到 两 类 题目 参数 之 间 呈 高 程度 负 相 关 ， 这 符合 
Zhan 等 人 (2018) 的 观点 。 

就 高 阶 潜在 特质 的 估计 值 而 言 ， 首先，!1 个 第 
三 阶 潜在 特质 和 3 个 第 二 阶 潜在 特质 的 估计 值 整 体 
分 布 形态 基本 一 致 , 这 是 因为 它们 之 间 的 相关 性 较 
高 (3 个 回归 系数 分 别 为 : 0.847 (SE = 0.094), 0.973 
(SE = 0.025) 和 0.927 (SE = 0.057)， 因 此 , 它们 之 间 
相关 系数 约 为 0.8)。 需 要 说 明 的 是 ,特质 之 间 在 统 
计 上 有 高 相关 并 不 一 定 代表 它们 是 同一 个 特质 。 比 
如 ,尽管 身高 和 体重 之 间 呈 高 相关 , 但 两 者 绝 非 同 
一 种 特质 。 因 此 ， 当 特质 之 间 存 在 高 相关 时 ,能 否 
用 一 个 笼统 的 高 阶 特质 来 洁 括 它们 是 需要 做 进 一 
步 理 论 判定 的 。 基于 PISA 2015 科学 素养 测评 框架 ， 
我 们 认为 这 3 个 第 二 阶 潜在 特质 在 定义 和 内 涵 上 都 
是 不 一 样 的 , 不 应 将 它们 视 为 同一 特质 。 另 外 , 我 
们 还 使 用 HO-DINA 模型 和 单 维 两 参数 Logistic 模 
AI (Birnbaum, 1968) 分 析 了 该 批 数 据 ， 发现 
MO-DINA 模型 中 的 第 三 阶 潜在 特质 估计 值 与 
HO-DINA 模型 的 高 阶 潜在 特质 估计 值 的 相关 系数 
为 0.996， 且 与 单 维 两 参数 Logistic 模型 的 潜在 特质 
估计 值 的 相关 系数 为 0.936, 表明 三 者 对 “科学 素 
养 ”的 估计 值 具有 高 相关 性 ， 同时 也 表明 MO-DINA 
模型 可 提供 更 多 的 分 析 结 果 信 息 。 

图 5 呈现 了 高 阶 潜在 结构 参数 的 估计 值 ， 包括 
第 三 阶 与 第 二 阶 潜在 特质 之 间 的 回归 系数 和 第 二 
阶 潜在 特质 与 属性 之 间 的 属性 区 分 度 参 数 。 首先 , 3 
个 回归 系数 均 接 近 于 1, 说 明 PISA 2015 科学 素养 
测评 框架 中 把 科学 能 力 、 科 学 知识 和 科学 背景 作为 
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总 体 而 言 , 根据 对 PISA 2015 科学 测验 数据 的 
分 析 结 果 ， 可 以 说 MO-DINA 模型 满足 本 文 的 分 析 
需求 ,在 匹配 PISA 2015 科学 素养 测评 框架 的 基础 
上 , 实现 了 对 科学 素养 的 客观 测评 。 


5 模拟 研究 : 参数 估计 返 真性 探究 


研究 设计 与 分 析 

在 探讨 完 MO-DINA 模型 的 现实 可 应 用 性 后 ， 
我 们 通过 一 个 简单 的 模拟 研究 来 探讨 它 的 参数 佑 
计 返 真性 。 模拟 研 究 中 的 部 分 设 定 参考 上 文 的 实证 
数据 分 析 结 果 , 使 用 图 7 中 的 三 阶 潜在 结构 ， 即 第 
三 阶 潜在 特质 1 个 , 第 二 阶 潜在 特质 3 个 , 属性 K= 


科学 素养 的 主要 组 成 部 分 的 做 法 是 合理 的 。 其 次 ， 
根据 这 3 个 回归 系数 的 大 小 可 知 :对 科学 素养 而 言 ， 
科学 知识 的 影响 最 大 ,科学 背景 的 影响 次 之 , 科学 
能 力 的 影响 最 小 。 然 后 ,根据 属性 区 分 度 的 大 小 可 
发 现 ，(1) 科 学 地 解释 现象 对 科学 能 力 的 影响 最 大 ; 
(2) 过 程 性 知识 对 科学 知识 的 影响 最 大 ; (3) 地 区 / 国 
家 背景 对 科学 背景 的 影响 最 大 。 

d 5 呈现 了 个 别 被 试 的 诊断 结果 示例 。 使 用 
MO-DINA 模型 进行 分 析 时 ， 除 了 能 够 得 到 9 个 属 
性 的 诊断 分 类 结果 外 ,还 能 够 得 到 被 试 在 多 阶 潜在 
特质 上 的 佑 计 值 ,以 2 号 和 23 号 被 试 为 例 ， 尽管 两 


5.1 


者 在 属性 模式 上 完全 一 样 ,但 他 们 在 多 阶 潜在 特质 
上 的 表现 还 是 有 所 差异 的 ， 说 明 它 们 对 属性 的 掌握 
概率 存在 差异 。 
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图 5 PISA 2015 科学 测验 中 潜在 结构 参数 估计 


f 科学 能 力 


(0.819, 0.954) 


i (0.913, 0.999) 


目 数量 设 定 为 T= 30, Q 和 矩阵 设 定 见 图 6; 题 


目 参 数 按 如 下 方法 生成 : (logit(g;), logit(s?))” = (Bi 


科学 地 解 
释 现 象 
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(0.382, 6.810) 
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科学 探究 


2338 _,, 
(0.153, 5.018) 


2.932 em 
(0.263, 6.050) — — [7 


3478 —— 
(0.637, 6.283) 
349 > 
(1.823, 6.454) 


2.081 
(0.144, 4.672) —— 


直 ( 基 于 MO-DINA 模型 ) 


注 : 


括号 内 为 95% 贝 叶 斯 可 信 


区 间 . 


表 5 PISA 2015 科学 测验 部 分 题目 数据 的 诊断 结果 示例 (基于 MO-DINA 模型 ). 


被 试 a 


9, 


9, 


9, 


[19 


2 111111111 
5 010001000 
7 010000000 


23 111111111 
54 010101000 
86 111101110 


0.582 (-0.863, 2.194) 
-0.873 (-2.317, 0.537) 
-0.919 (-2.429, 0.541) 

0.202 (-1.182, 1.950) 
-0.831 (-2.414, 0.620) 
—0.404 (2.082, 1.368) 


注 : 括号 内 为 95% 贝 叶 斯 可 信 区 间 . 


0.661 (-0.586, 2.174) 
-0.940 (-2.290, 0.276) 
—1.022 (-2.432, 0.198) 

0.283 (-1.057, 1.961) 
—0.880 (-2.319, 0.461) 
—0.462 (-2.054, 1.314) 


0.656 (-0.572, 2.175) 
-0.910 (2.307, 0.357) 
1.028 (2.445, 0.211) 

0.338 (-0.999, 1.959) 
—0.870 (2.368, 0.525) 
—0.468 (2.034, 1.293) 


0.664 (-0.581, 2.194) 
0.939 (-2.302, 0.263) 
-1.027 (-2.453, 0.183) 

0.294 (-1.035, 1.968) 
0.886 (-2.341, 0.426) 
—0.467 (-2.062, 1.300) 


报 第 51 4 


EH |— EN Á— | 
3| | |] |] | |] m] | | | NN | NN | NN | | 
A| | | | | 1 [| | II 


图 6 模拟 研究 中 的 Kx 了 的 Q， 和 矩阵. 灰色 表示 "1”， 
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图 7 模拟 研究 
注 : bias = 


题目 参数 的 返 真 性 . 
W; RMSE = 均 方 根 误 差 . 


L 1 1 1 1 1 L L L L L L L L L L 1 1 1 L 1 1 1 1 1 L 1 L L 
1234567 8 9 1011 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 
EHI bias g L biass —— RMSE g 


RMSE s 


5)’ ~N (p, E), 其 中 ug = us = 22.197, E = [1, -0.6; 
-0.6, 1]; 属性 截 距 向 量 A9 = (-1, 0, 1, -1, 0, 1, -1, 
0,1)， 所 有 属性 区 分 度 均 设 定 为 Mm = 1.5， 即 假设 
uu De TA 
000, 第 三 阶 潜在 特质 从 标准 正 态 分 布 中 生成 ， 
三 阶 与 第 二 阶 潜在 特质 之 间 的 3 个 载荷 均 站 a. 
D = 0.8， 即 假设 各 二 阶 潜在 特质 之 间 相 关系 数 为 
0.64。 模 拟 研究 中 ， 和 迭代 次 数 、 预 热 次 数 等 与 实证 
研究 中 的 保持 一 致 , 本 研究 中 所 有 参数 的 PSRF 均 
小 于 1.2,， 表示 参数 估计 已 收 僵 。 男 外 ,使 用 偏差 
(Bias), 均 方 根 误差 (RMSE) 和 皮尔 逊 相关 系数 (Cor) 
来 探究 连续 变量 (e.g., 题目 参数 , 潜在 特质 ) 的 返 真 
性 。 使 用 属性 正确 判 准 率 (ACCR) 和 属性 模式 正确 
判 准 率 (PCCR) 来 探究 属性 的 返 真 性 。 
5.2 ”结果 

图 7 呈现 了 题目 参数 返 真性 。 就 Bias 而 言 ， 绝 
大 多 数 题目 的 参数 Bias 小 于 0.01, 猜测 参数 和 失误 
参数 的 Bias 的 平均 绝对 值 分 是 0.002 和 0.004。 就 
RMSE 而 言 ， 所 有 题目 参数 的 RMSE 均 小 于 0.05, 
猜测 参数 和 失误 参数 的 RMSE 的 均值 分 别 是 0.018 
和 0.026。 还 可 发 现 ,猜测 参数 的 RMSE 随 着 题目 
测 查 的 属性 数量 的 增加 而 下 降 ， 而 失误 参数 的 
RMSE 随 着 题目 测 查 的 属性 数量 的 增加 而 增加 ， 这 
与 以 往 一 些 研究 的 结论 是 一 致 的 (e.g.，de la Torre, 
2009; Zhan, Jiao, Liao, et al., 2018)。 此 外 ， 猜 测 参 数 


和 失误 参数 的 Cor 分 别 是 0.981 和 0.964， 即 题目 参 
数 的 估计 值 与 真 值 之 间 呈 高 相关 。 整 体 而 言 ， 
MO-DINA 模型 的 题目 越 参 数 返 真 性 较 好 。 

图 8 呈现 了 属性 参数 的 ACCR .9 个 属性 的 ACCR 
均 高 于 0.900， 表 明 单 个 属性 的 参数 估计 返 真 性 很 
好 。 另 外 , PCCR 为 0.512, 考虑 到 属性 数量 为 9， 即 
有 512 种 可 能 的 属性 模式 需要 被 估计 , 根据 已 有 研 
RAM, 该 判 准 率 符合 预期 。 

属性 返 真性 
Ao TS 0.9 
AS EE 0.902 
A7 TT 0.024 
A6 Es ().9 13 
AS TT 0.021 
A4 0.937 
A3 TT ().92 
A2 — à 1 J à 0.904 


Al 0.927 
0.80 0.85 0.90 0.95 1 


8 ”模拟 研究 中 属性 参数 的 属性 正确 判 准 率 (ACCR). 


Xd 6 呈现 了 高 阶 潜在 特质 参数 的 返 真 性 ,首先 ， 
4 个 高 阶 潜在 特质 的 返 真 性 类 似 ，1，000 名 被 试 的 
bias 的 平均 绝对 值 约 为 0.1, RMSE 的 均值 约 为 0.69， 
Cor 均 高 于 0.7。 参 考 以 往 关 于 HO-DINA 模型 的 研 
究 结果 (e.g., de la Torre & Douglas, 2004; de la Torre, 
2009; Zhan et al., 2018)， 整 体 而 言 , 高 阶 潜在 特质 
参数 的 返 真性 良好 , 满足 实际 应 用 需求 。 
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表 6 模拟 研究 中 高 阶 潜在 特质 参数 的 返 真性 . 
参数 tbias RMSE dis 
平均 绝对 值 标准 差 最 小 值 最 大 值 平均 值 标准 差 最 小 值 最 大 值 
09) 0.100 0.124 —0.380 0.368 0.686 0.090 0.408 0.983 0.721 
e, 0.100 0.125 —0.378 0.352 0.689 0.092 0.385 0.983 0.719 
0,” 0.104 0.126 -0.372 0.351 0.683 0.089 0.416 0.947 0.726 
6; 0.104 0.130 -0.481 0.381 0.690 0.095 0.358 1.050 0.715 
LE: bias = 偏差 ; RMSE = 均 方 根 误差 ; Cor = 皮尔 逊 相关 系数 
表 7 模拟 研究 中 潜在 结构 参数 的 返 真 性 
参数 bias RMSE Es 
平均 绝对 值 标准 差 最 小 值 最 大 值 平均 值 标准 差 最 小 值 最 大 值 
m 0.042 0.048 —0.066 0.072 0.189 0.062 0.129 0.305 0.982 
Ni 0.116 0.051 0.015 0.172 0.346 0.057 0.245 0.429 0.982 
y —0.031 0.053 
3) —0.012 0.076 
30) -0.012 0.076 
iE: bias = 偏差 ; RMSE = 均 方 根 误差 ; Cor = 皮尔 逊 相关 系数 ; Mo = 属性 难度 参数 , um = 属性 区 分 度 参 数 , y1, Yo ys = 第 三 


阶 与 第 二 阶 潜在 特质 之 间 的 回归 系数 . 


表 7 呈现 了 高 阶 潜在 结构 参数 的 返 真 性 ,首先 ， 
对 于 属性 难度 参数 的 返 真性 优 于 属性 区 分 度 参数 
的 返 真性 , 与 以 往 关 于 HO-DINA 模型 的 研究 结论 
Z HK, 第 三 阶 潜在 特质 与 3 个 第 二 阶 潜在 特 
质 之 间 回 归 系 数 的 返 真性 也 较 好 ，RMSE 均 小 于 
0.08。 整 体 而 言 ,潜在 结构 参数 的 返 真 性 较 好 。 


6 ”总结 与 讨论 


为 实现 对 科学 素养 的 客观 且 准 确 的 测评 ， 本 文 
首先 根据 PISA 2015 科学 素养 测评 框架 ， 提 出 了 科 
学 素养 所 包含 的 三 阶 潜在 结构 。 然 后 ， 鉴 于 当前 尚 
未 有 CDM 能 够 处 理 包含 三 阶 潜在 结构 的 数据 ,我 
们 提出 了 多 阶 认 知 诊断 建 模 思 路 ， 并 以 DINA 模型 
Afi, 建构 了 多 阶 DINA (MO-DINA) 模 型 。 新 模型 
斯 MCMC 算法 实现 参数 估计 。 新 模型 
与 PISA 2015 科学 素养 测评 框架 相 匹 配 , 满足 对 科 
学 素养 的 客观 且 准 确 测评 的 需求 。 之 后 ， 本 文 以 
PISA 2015 科学 测验 数据 分 析 为 例 来 说 明 新 模型 的 
现实 需求 和 可 应 用 性 。 最 后 ,通过 一 个 模拟 研究 来 
探究 新 模型 的 参数 估计 返 真 性 。 实 证 研究 结果 表明 
当 测 验 数据 结构 存在 多 阶 潜在 结构 或 者 数据 分 析 
者 需要 了 解 被 试 在 多 阶 潜在 特质 方面 的 表现 时 ， 可 
考虑 使 用 MO-DINA 模型 。 模 拟 研 究 结 果 表 明 本 文 
提出 的 全 贝 叶 斯 MCMC 算法 能 够 为 MO-DINA 模 
型 提供 较 好 的 参数 估计 返 真 性 。 


采用 全 贝 叶 


本 文中 , 尽管 MO-DINA 模型 是 针对 PISA 
2015 科学 素养 所 包含 的 三 阶 潜在 结构 而 提出 的 ， 
HAX MO-DINA 模型 是 HO-DINA 模型 的 折 广 ， 
所 以 理论 上 该 模型 也 可 以 适用 于 其 他 包含 二 阶 及 
以 上 阶 潜在 结构 的 测验 ， 比 如 国际 数学 和 科学 趋势 
人 研究 (TIMSS) 和 (中 国 ) 国 家 义务 教育 阶段 教育 质量 


监测 等 大 规模 测验 均 包 含 了 多 阶 潜在 结构 。 当 然 ， 
本 人 研究 并 不 是 为 了 说 明 任 何 包含 多 阶 潜在 结构 的 


要 的 数据 分 析 结 


测验 或 者 任何 针对 科学 素养 的 测验 都 需要 使 用 
MO-DINA 模型 来 进行 分 析 ， 而 只 是 从 “为 学 习 而 评 
价 (assessment for learning)” 的 新 测评 理念 出 发 ， 向 
读者 提供 一 种 新 的 测评 视角 和 方法 ， 以 期 进一步 丰 
富 数据 分 析 模 型 的 可 选项 。 在 实践 中 ,我们 除了 可 
根据 测验 编制 的 理论 和 实际 测验 需求 等 来 选择 分 
析 模 型 外 ,还 可 以 尝试 使 月 


数据 驱动 方法 ,依据 模 


型 -数据 拟 合 指标 (e.g., AIC、BIC 和 DIC 等 ) 来 选择 
合适 的 模型 ， 进 而 得 到 客观 的 、 准 确 的 以 及 满足 需 


需要 强调 的 是 , 一般 存 在 3 个 及 以 上 的 低 阶 潜 
在 特质 时 才 会 考虑 使 用 高 阶 模型 。 具 体 而 言 ， 对 于 
二 阶 LSM ( 见 式 (D))， 当 天 = 3 时 , 使 用 无 结构 潜在 
结构 模型 需要 估计 23 - 1 = 7 个 结构 参数 , 而 使 用 
二 阶 LSM 仅 需 要 估计 6 个 参数 (包含 3 个 属性 区 分 
EM 3 个 属性 难度 ); 而 对 于 第 三 阶 与 第 二 阶 潜 在 
特质 而 言 ， 当 第 二 阶 潜在 特质 属性 数量 为 3 时 , 直 
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接 估计 3 者 之 间 的 相关 系数 和 估计 第 三 阶 与 第 二 阶 
潜在 特质 之 间 的 载荷 均 需要 3 参数 ,而 当 第 二 阶 潜 
在 特质 数量 大 于 3 时 ,， 则 使 用 高 阶 结构 可 以 减少 待 
估计 参数 数量 。 比 如 ， 就 图 5 的 三 阶 潜在 结构 而 言 ， 
直接 使 用 DINA 模型 需要 估计 2 - 1 = 511 个 结构 
参数 , 使 用 MO-DINA 模型 仅 需 要 估计 21 个 结构 参 
数 (包含 9 个 属性 区 分 度 .9 个 属性 难度 和 3 个 载荷 )， 
可 以 大 幅 降低 待 估计 参数 数量 。 但 若 使 用 包含 三 个 
维度 的 二 阶 DINA 模 型 ， 则 同样 需要 估计 21 个 结构 
参数 (包含 9 个 属性 区 分 度 、9 个 属性 难度 和 3 个 相 
关系 数 ), 但 此 时 就 无 法 实现 对 “科学 素养 "维度 的 
测量 。 因 此 ， 是 和 否 选用 高 阶 模型 ， 可 以 从 理论 (测验 
框架 ) 和 模型 简约 两 个 角度 进行 考虑 ,但 究竟 高 阶 
模型 是 否 合 理 ， 最终 还 要 回归 到 理论 ， 因 为 并 不 是 
所 有 潜在 特质 都 适合 建构 高 阶 结 构 。 比 如 ,大 五 人 
格 的 五 个 维度 就 不 应 用 高 阶 潜在 特质 “性 格 ” 去 解 
RE, 因为 从 理论 上 讲 人 格 的 五 个 维度 应 该 是 独立 的 
(尽管 数据 分 析 结 果 会 存在 低 相关 )。 

尽管 本 人 研究 将 科学 素养 划分 为 了 三 阶 潜在 结 
Fg, 但 第 一 阶 的 属性 粒度 仍然 较 大 ,而 通常 CDA 可 
能 更 适用 于 测评 一 些 粒 度 较 小 的 属性 (see Leighton & 
Gierl, 2007; 詹 沛 达 等 , 2016)。 实 际 上 ,基于 PISA 
2015 科学 测评 框架 ,本 研究 中 的 第 一 阶 属性 还 能 
够 进一步 划分 为 粒度 更 小 的 概念 ， 比 如 ，A1“ 科 学 
地 解释 现象 ”还 能 够 进一步 划分 为 “回忆 并 应 用 适 
当 的 科学 知识 (Recall and apply appropriate scientifc 
knowledge)” 和 “提供 解释 性 假设 (Offer explanatory 
hypotheses)” 等 小 粒度 概念 , 详 见 OECD (2016) 的 表 
2.4a。 尽 管理 论 上 我 们 可 以 使 用 包含 四 阶 潜在 结构 
的 MHO-DINA 模型 做 进一步 分 析 , 但 受 限 于 《 PISA 
2015 技术 报告 中 并 未 呈现 题目 与 小 粒度 概念 之 间 
的 具体 对 应 关系 ( 即 没 有 相应 的 Q 和 矩阵 ),， 所 以 本 文 
暂 只 关注 到 对 科学 素养 所 包含 的 三 阶 潜在 结构 的 
测评 。 男 外 ， 如 有 和 需要， 后续 还 可 以 尝试 使 用 三 阶 
IRT 模型 (e.g., Huang et al., 2013) 来 分 析 该 数据 ， 并 
与 本 文 的 分 析 结 果 进 行 对 比 研 究 。 

当然 ， 由 于 能 力 和 精力 有 限 ， 本 研究 仍 有 一 些 
局 限 值 得 后 续 做 出 进一步 探究 ， 比 如 : (1) 尽 管 本 文 
主要 关注 的 是 潜在 结构 模型 ,但 仍 仅 使 用 了 DINA 
模型 作为 测量 模型 ， 后 续 可 尝试 探究 基于 其 他 测量 
模型 时 的 性 能 ; (2) 未 考虑 属性 之 间 可 能 存在 的 层级 
结构 (Leighton, Gierl, & Hunka, 2004)， 如 何 将 属性 
层级 结构 引入 到 多 阶 潜在 结构 中 值得 今后 进一步 关 
注 (e.g., Zhan, Ma, Jiao & Ding, in press); (3) 仅 涉及 


二 分 属性 ， 而 未 考虑 更 为 精细 的 多 分 属性 (Karelitz， 
2004)， 如 何 将 MO-LSM 拓 广 到 多 分 属性 是 一 个 有 
意义 的 话题 (e.g., Zhan, Wang et al., in press); (4) 假 
设 多 阶 潜在 结构 建构 合理 ,而 现实 测验 中 多 阶 潜在 
结构 的 界定 可 能 会 存在 偏差 ,在 这 种 情况 下 MO- 
DINA 模型 的 表现 情况 值得 做 进一步 研究 ; (5) MO- 
DINA 模型 仅 考虑 了 单一 的 作答 数据 源 ， 并 未 考虑 
诸如 题目 作答 时 间 、 鼠 标点 击 次 序数 据 等 过 程 性 数 
据 ， 如 何 将 过 程 性 数据 引入 到 当前 建 模 思路 中 非常 
值得 关注 (e.g., Liu, Liu, & Li, 2018; Zhan et al., 
2018); (6) MO-DINA 模型 仅 针对 横断 测验 数据 ， 暂 
无 法 处 理 纵向 测验 数据 后续 可 尝试 对 其 做 进一步 
拓 广 (e.g., Li, Cohen, Bottge, & Templin, 2016; Zhan, 
Jiao, Liao & Li, in press); (7) 实 证 数据 分 析 中 , 未 考 
虑 科学 态度 维度 ， 如 何 将 由 学 生 问卷 测评 的 科学 态 
度 和 由 认 知 题目 测评 的 其 他 3 个 维度 一 同 纳 入 到 对 
科学 素养 的 测评 中 值得 今后 做 进一步 探索 。 
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Using a multi-order cognitive diagnosis model to assess scientific literacy 


ZHAN Peida; YU Zhaohui; LI Feiming; WANG Lijun 


(College of Teacher Education, Zhejiang Normal University, Jinhua, 321004, China) 


Abstract 

In PISA 2015, scientific literacy is defined as “the ability to engage with science-related issues, and with 
the ideas of science, as a reflective citizen”. There are four interdependent dimensions are specified in the 
scientific literacy assessment framework for PISA 2015: Competencies, Knowledge, Contexts, and Attitudes. 
Given that knowledge of scientific literacy contributes significantly to individuals’ personal, social, and 
professional lives, it is of vital importance to find an objectively and accurately assessment method for scientific 
literacy. However, only unidimensional IRT models were used in the analysis in PISA 2015. Which means that 
the analysis model does not match with such a multidimensional assessment framework. It is desired to develop 
a new analysis model. This study attempts to measure scientific literacy in cognitive diagnostic assessment for 
the first time. 

According to the scientific literacy assessment framework for PISA 2015, a third-order latent structure for 
scientific literacy is first pointed out. Specifically, the scientific literacy is treated as the third-order latent trait; 
Competencies, Knowledge, Contexts, and Attitudes are all treated as second-order latent traits; And nine 
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subdomains, e.g., explain phenomena scientifically and content knowledge, were treated as first-order traits (or 
attributes). Unfortunately, however, there is still a lack of cognitive diagnosis models that can deal with such a 
third-order latent structure. To this end, a multi-order DINA (MO-DINA) model was developed in this study. 
The new model is an extension of the higher-order (HO-DINA) model, which is similar to the third-order IRT 
models. To illustrate the application and advantages of the MO-DINA model, a sub-data of PISA 2015 science 
assessment data were analyzed. Items were chosen from the S01 cluster, and participants were chosen from 
China. After data cleaning, 1076 participants with 18 items were retained. Three models were fitted to this 
sub-data and compared, the MO-DINA model, in which the third-order latent structure of scientific literacy was 
considered; the HO-DINA model, in which the scientific literacy was treated as a second-order latent trait and 
contacted with attributes directly; and the DINA model. 

All three models appear to provide a reasonably good fit to data according to the posterior predictive model 
checking. According to the -2LL, AIC, BIC, and DIC, the DINA model fits the data worst, and the MO-DINA 
model fits the data best, the results of MO-DINA model are used to make further interpretations. The results 
indicated that (1) the quality of 18 items are not good enough; (2) The correlations among second-order latent 
traits are high (0.8, approximately); (3) Knowledge has the greatest influence on scientific literacy, Contexts 
second, and Competencies least; (4) Explain phenomena scientifically, procedural knowledge, and local/national 
has the greatest influence on Competencies, Knowledge, and Contexts, respectively. In addition, a simulation 
study was conducted to evaluate the psychometric properties of the proposed model. The results showed that the 
proposed Bayesian MCMC estimation algorithm can provide accurate model parameter estimation. 

Overall, the proposed MO-DINA model works well in real data analysis and simulation study and meets the 
needs of assessment for PISA 2015 scientific literacy which included a third-order latent structure. 

Key words scientific literacy; cognitive diagnosis; PISA; DINA model 


